AI资讯新闻榜单内容搜索-Reasoning

大语言模型真的会「推理」吗？一项系统性研究梳理 LLM 的结构性推理失败

近期发表于 TMLR 的论文《Large Language Model Reasoning Failures》对这一问题进行了系统性梳理。该研究并未围绕 “模型是否真正理解” 展开哲学层面的争论，而是采取更加务实的路径 —— 通过整理现有文献中的失败现象，构建统一框架，系统分析大语言模型的推理短板。

来自主题: AI技术研报

7357 点击 2026-02-26 10:52

一个模型统一所有离线任务！微软用671B大模型重构广告推荐「推理大脑」

近日，微软Bing Ads与DKI团队发表论文《AdNanny: One Reasoning LLM for All Offline Ads Recommendation Tasks》，宣布基于DeepSeek-R1 671B打造了统一的离线推理中枢AdNanny，用单一模型承载所有离线任务。这标志着从维护一系列任务特定模型，转向部署一个统一的、推理中心化的基础模型，从

来自主题: AI技术研报

8550 点击 2026-02-18 13:29

Gemini准确率从21%飙到97%！谷歌只用了这一招：复制粘贴

简单到难以置信！近日，Google Research一项新研究发现：想让大模型在不启用推理设置时更准确，只需要把问题复制粘贴再说一遍，就能把准确率从21.33%提升到97.33%！

来自主题: AI技术研报

9277 点击 2026-01-18 14:58

无需训练、只优化解码策略，DTS框架让大模型推理准确率提升6%，推理长度缩短23%

专注推理任务的 Large Reasoning Models 在数学基准上不断取得突破，但也带来了一个重要问题：越想越长、越长越错。本文解读由 JHU、UNC Charlotte 等机构团队的最新工作

来自主题: AI技术研报

7053 点击 2025-11-22 11:31

Transformer作者重磅预言：AI无寒冬，推理革命引爆万亿市场！

Transformer的火种已燃烧七年。如今，推理模型（Reasoning Models）正点燃第二轮革命。Transformer共同作者、OpenAI研究员Łukasz Kaiser预判：未来一两年，AI会极速跃升——瓶颈不在算法，而在GPU与能源。

来自主题: AI资讯

8209 点击 2025-11-15 17:00

3A大作！阿里ROLL团队从基建->算法->机理，推动RL4LLM全栈协同优化

近期，阿里巴巴 ROLL 团队（淘天未来生活实验室与阿里巴巴智能引擎团队）联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构（Asynchronous Training）、Asymmetric PPO（AsyPPO）与 Attention 机制（Attention-based Reasoning Rhythm），

来自主题: AI技术研报

8764 点击 2025-11-11 10:24

田渊栋与Russell团队联手，证明Transformer能在训练中自然学会叠加推理

该团队 2025 年的研究《Reasoning by superposition: A theoretical perspective on chain of continuous thought》已从理论上指出，连续思维链的一个关键优势在于它能使模型在叠加（superposition）状态下进行推理：当模型面对多个可能的推理路径而无法确定哪一个是正确时，它可以在连续空间中并行地保留所有可能的路

来自主题: AI技术研报

9370 点击 2025-10-08 11:41

让机器人「不只是走路」，Nav-R1引领带推理的导航新时代

这篇题为《Nav-R1: Reasoning and Navigation in Embodied Scenes》的新论文，提出了一个新的「身体体现式（embodied）基础模型」（foundation model），旨在让机器人或智能体在 3D 环境中能够更好地结合「感知 + 推理 + 行动」。简单说，它不仅「看到 + 听到＋开动马达」，还加入清晰的中间「思考」环节。

来自主题: AI技术研报

6490 点击 2025-09-18 14:28

击败Meta登榜首：推理增强的文档排序模型ReasonRank来了

推理大模型（Large Reasoning Model）极大的促进了自然语言处理领域的发展，而信息检索领域的核心问题之一是文档排序，如何利用强大的推理大模型通过主动推理来判断文档的相关性，进而再对文档进行排序是一个值得探索的方向。

来自主题: AI技术研报

7843 点击 2025-08-21 16:08

400万人围观的分层推理模型，「分层架构」竟不起作用？性能提升另有隐情？

还记得分层推理模型（Hierarchical Reasoning Model，HRM）吗？这项工作于 6 月份发布，当时引起了不小的轰动——X/Twitter 上的相关讨论获得了超过 400 万的浏览量和数万个点赞，剖析这项工作的 YouTube 视频观看量也超过了 47.5 万次。

来自主题: AI技术研报

8431 点击 2025-08-18 12:36